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fi 要 : 哈 希 由 于 其 在 存储 和 检索 效率 方面 的 优势 已 经 被 广泛 用 于 大 规模 多 媒体 检索 。 通 过 利用 数据 的 语义 相似 度 来 
提高 哈 希 编码 质量 的 监督 哈 希 近来 受到 更 广泛 关注 。 传 统 监 督 哈 希 方法 将 图 像 学 习 的 手工 特征 或 机 器 学 习 特 征 和 二 进 
制 码 的 单独 量化 步骤 分 开 ， 并 未 很 好 地 控制 量化 误差 ， 并 且 不 能 保证 生成 哈 希 码 的 平衡 性 。 为 了 解决 这 个 问题 ， 提 出 
了 新 的 多 尺度 平衡 深度 哈 希 的 方法 。 该 方法 采用 多 尺度 输入 ， 这 样 做 有 效 地 提升 了 网 络 对 图 像 特征 的 学 习 效 果 。 并 且 
提出 了 新 的 损失 函数 ， 在 很 好 地 保留 语义 相似 性 的 前 提 下 ， 考 虑 了 量化 误差 以 及 哈 硕 码 平 衡 性 ， 以 生成 更 优质 的 哈 硕 
码 。 该 方法 在 CIFAR-10 以 及 Flickr 数据 集 上 的 最 佳 检索 结果 较 当 今 先 进 方法 分 别提 高 了 5.5% 和 3.1% 检 索 精 度 。 
关键 词 : 多 尺度 ; 平衡 性 ; 深度 哈 希 ; 卷 积 神经 网 络 ; BRIER 
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MBDH: a multi-scale balanced deep hashing method for image retrieval 
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Abstract: Hashing has been widely used for large-scale multimedia retrieval because of its advantages of storage and retrieval 
efficiency. The use of the semantic similarity improving the hash coding quality has recently been more widely concerned. 
Traditional supervised hash methods for image retrieval represent an image as a manual feature vector or a machine learning 
feature vector, and then perform a separate quantization step to generate a binary code. Such methods do not control the 
quantization error effectively, and cannot guarantee the balance of hash code. To this end, this paper presents a new multi-scale 
balanced deep hash method. The method uses multi-scale input, which effectively improves the ability of learning the image 
features from the network. Moreover, a new loss function is proposed. Under the premise of preserving the semantic similarity, 
the quantization error and the balance of hash code are taken into account to generate the high quality hash code. After 
experimenting on two benchmark databases: CIFAR-10 and Flickr, this method has been improved by 5.5% and 3.1% of the 
search accuracy compared with today's advanced image retrieval methods. 
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0 als 码 获 得 非常 好 的 效果 以 及 实现 理想 的 时 间 复 杂 度 。 哈 希 方 法 可 
以 分 为 数据 独立 哈 希 及 数据 依赖 哈 希 。 两 种 方法 的 区 别 是 生成 
最 近邻 搜索 (nearest neighbor search, NNS) 0 已 经 成 为 许 哈 希 函数 的 具体 方式 。 偏 移 不 变 核 函 数 哈 希 shift invariant 

多 机 器 学 习 、 数 据 挖 掘 、 图 像 检索 问题 的 基础 。 假 设 给 定 查 询 kernel hashing, SIKH)D 和 最 小 损失 哈 希 (minimalloss hashing, 
Än, 尝试 找到 最 接近 数据 库 中 给 定 查 询 点 的 点 ,这 便 是 NNS MLA) 9 是 具有 代表 性 的 数据 独立 哈 希 方法 ， 其 哈 希 函 数 是 人 
的 主要 思想 。NNS 在 大 数据 领域 的 潜在 应 用 前 景 受到 学 术 界 和 工 或 随机 投影 构建 的 ,数据 独立 哈 希 方法 的 缺陷 是 显而易见 的 。 
行业 的 高 度 重视 。 维度 灾难 、 存 储 成 本 和 查询 速度 是 NNS 在 处 理论 上 ， 过 多 的 人 工 干 预 可 能 导致 适应 性 以 及 准确 性 的 缺失 。 
理 大 数据 问题 时 所 过 到 的 主要 挑战 。 因此 ， 从 给 定数 据 库 学 习 哈 希 函数 的 数据 依赖 哈 希 方法 被 
哈 希 是 NNS 中 重要 而 且 有 效 的 方法 。 可 以 通过 构建 哈 希 提出 。 这 种 哈 希 函数 的 构造 方法 可 以 生成 更 紧凑 的 二 进 制 哈 希 
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码 。 数 据 依赖 的 哈 希 方法 根据 
分 为 监督 和 无 监 
可 以 实现 局 部 敏感 效应 。 无 监 
据 来 学 习 哈 希 函数 。 现 如 


督 的 哈 希 算法 是 快速 的 ， 但 是 


给 定 的 训练 数据 集 是 


Se 


督 哈 希 方法 通过 使 


图 片 所 含有 的 丰富 语义 没有 得 到 


否 具 有 标签 个 乘积 的 
督 的 方法 。 无 监督 哈 希 函数 基于 一 定 概率 理论 ， 
未 标记 的 数 
[ 今 有 许多 无 监督 的 哈 希 方法 ， 如 局 部 
敏感 哈 希 (locality-sensitivehashing,LSH)D, 44 44 (iterative 
quantization, ITQ) 向 和 谱 哈 希 (spectral hashing, SH) ©), Foie 


很 好 地 利用 。 为 了 避免 宝贵 的 


被 提出 。 在 茶 些 情况 下 , 与 速度 相 比 , 精度 更 加 被 人 们 所 重视 。 


based hashing, LDA hash) "1, 基于 内 核 的 监督 哈 希 (kernel based 
supervised hashing, KSH) [1]， 基 于 潜在 因子 模型 的 监督 哈 希 

(atent factor models for supervised hashing, LFH) 11, 
虽然 已 经 设计 出 了 很 多 监督 哈 希 方法 ， 但 是 仍然 存在 以 下 
缺陷 : a) 这 些 方法 总 是 采 
信息 丢失 jb) 大 多 数 图 像 检索 方法 只 能 学 习 浅 层 特 征 ， 使 图 像 
sc) 一 般 来 说 ， 之 前 的 方法 普遍 没 


言 息 之 间 的 相关 结构 被 忽 
有 考虑 到 量化 误差 。 
为 了 解决 上 述 问题 ， 本 文 提出 了 一 种 多 尺度 平衡 深度 哈 希 


方法 : 


a) 使 用 多 尺度 特征 作为 输入 , 这 样 可 以 得 到 更 鲁 棒 的 语义 


在 这 种 情况 下 ， 监 督 


从 希 方法 便 更 适用 。 如 半 监 督 哈 希 (semi- 
supervised hashing, SSH ) 1, 最 小 损失 哈 希 (minimal loss hashing, 
MLH) ©), 基于 线性 判别 分 析 的 哈 希 (linear discriminant analysis 


信息 ， 与 局 部 特征 


WR PEAR 


| GIST $ J y 


语义 信息 的 丢失 ， 监 督 哈 希 方法 


为 其 基本 网 络 ， 
哈 希 码 。CN 


E， 可 能 会 造成 语义 


张 艺 超 ， 等 : 


式 


SS 


O: He{-1,1}"" 表示 每 行 是 
在 第 二 阶段 ， 


在 哈 希 函数 学 习 阶段 ，CNNHL FH 
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S=LHH7 
q 


表示 以 及 哈 希 函数 。 


原始 图 像 像素 以 及 预 
(CNNH* 及 其 二 进 制 标签 Y) 被 馈送 到 CNN，CNN 的 目标 是 
使 输出 之 间 的 误差 最 小 化 , 并 将 目标 二 进 制 


个 4 维 哈 希 码 的 近似 哈 希 码 矩 阵 。 
成 的 二 进 制 码 H 


MBDH: 一 种 多 尺度 平衡 深度 哈 希 图 像 检 索 方法 


(1) 


量 连接 到 了 和 Y. 


体 来 说 ，CNNH XM? 


设计 


NH 以 监督 的 方式 训 
编码 学 习 阶段 学 习 到 哈 希 码 被 ) 
于 像 的 离散 类 标签 可 
哈 希 函数 。 基 于 深度 


H, 则 CNNH 还 合 


有 softmax 激活 的 输 昌 
练 设计 好 
| (Ft TAT ASS IE o 


深度 网 络 学 习 图 像 特征 


的 深层 框架 作 


HEJER q HE 
的 深度 网 络 。 在 哈 希 
另外 ， 如 果 训 练 


图 像 标 签 以 学 习 


数 。 然 而 ，CNNH 是 
中 的 学 习 的 深层 特征 不 能 帮助 改进 第 
习 ， 这 极 大 限制 了 哈 


通常 ， 使 用 具 


Mii. ASCH T | 
函数 ， 会 在 本 文 后 面 详 


学 习 的 性 能 。 


了 负 对 数 似 然 的 逻辑 


各 标签 分 类 。 也 经 常 但 


最 近 有 很 多 这 样 


ZO MI. L2 范 数 以 及 平衡 : 


介绍 


Fo 


回归 作为 损失 函数 用 于 
用 其 他 种 类 的 损失 函数 如 欧 氏 距离 和 交 


页 构成 的 新 损失 


CNNH 同时 学 习 深 层 特征 和 哈 希 函 
有 两 个 阶段 的 
阶段 中 的 近似 哈 希 码 学 


其 中 第 二 阶段 


j 卷 积 神经 网 络 学 习 更 有 效 的 图 像 表 示 


的 方法 ， 获 得 了 比 常规 


， 分 成 多 尺度 输入 后 ， 从 深层 卷 


积 网 络 提取 的 特征 向 量 是 对 整 


b) RAR 


作为 深度 映射 


c) peh Ah AS MH. 22 范 数 以 及 3 


入 ， 更 多 地 考 


失 函 数 。 它 不 仅 可 以 保留 语义 
到 了 很 好 地 解决 ， 从 而 生成 平 


1 ” 卷 积 神经 网 络 哈 希 


卷 积 神经 网 络 出 现 后 ， 便 快速 引起 了 计算 机 视觉 界 的 广泛 
力 方面 的 差距 得 到 进一步 缩小 ， 
析 和 以 及 视频 分 类 等 各 种 任务 中 


关注 。 机 器 与 人 类 在 视觉 感知 能 


其 在 物体 识别 ， 


检测 ， 图 像 解 


取得 的 显著 成 就 推动 了 人 工 智 


CNNU9 是 一 个 约束 多 层 和 
受 人 类 视觉 系统 


域 获取 输入 ， 
的 CNN 


体 信 息 进行 编码 的 全 局 描述 符 ; 


经 网 络 (Convolutional Neural Network, CNN) 


虑 了 图 像 信 息 之 间 的 相关 结构 ; 


衡 且 紧凑 的 哈 希 码 


能 领域 的 前 进 。 


启发 , CNN 隐 
相对 于 其 输入 


三 种 类 型 的 结构 构成 ， 


接 层 。 卷 积 特 征 
卷 积 层 之 后 ， 可 
进 


图 中 的 神经 元 
以 根据 所 采用 


行 分 类 。 通 过 


ANY DA BEE 


CNNHODU 以 及 后 来 的 改进 CNNH* 02] 均 为 以 原始 图 像 数 据 


为 输入 的 两 阶段 框架 。 在 第 一 


调整 步 幅 和 输 


这 些 方法 仍 存在 诸多 所 


丛 希 方法 性 能 更 好 的 图 像 表 示 。 然 而 ， 


kike Plo: 图 像 信息 没 


获得 更 多 元 化 


F 衡 项 构成 的 新 的 损 
筷 ， 还 使 得 量化 误差 的 问题 得 


的 学 习 ; 在 学 习 深层 哈 希 算法 的 过 程 中 存在 不 可 


控 的 量化 误差 ， 


EEL Fo 


能 最 佳 地 兼容 连续 哈 希 码 转 换 成 离散 的 二 进 制 代 码 ， 最 终 
进 制 代码 的 质量 


多 尺度 平衡 深度 哈 希 
在 相似 度 检索 中 


ET NA WIAR, 每 一 个 表示 


佳 特征 向 量 xeR”。 


5, =1 表示 Xi 和 x; 相 1 
习 非 线性 
H= f(x) 中 的 每 个 点 x 进 


AS SCHEH 


经 网 络 , 其 输入 位 于 二 维 平面 上 。 


藏 层 的 神经 元 从 上 一 层 的 局 


Dkr 
TA 
区 | 


通道 对 其 进行 处 理 : 


区 域 平 铺 在 二 维特 征 图 中 。 典 下 


z, 用 


即 卷 积 层 ， 池 化 层 以 及 全 着 


彼此 共享 权重 。 池 化 层 被 放置 在 


来 保留 语义 相似 信息 ;，d) 利用 
来 控制 生成 哈 希 码 的 质量 。 


的 操作 为 最 大 池 化 还 是 平均 池 化 


入 滤波 器 大 小 ， 卷 积 层 和 池 化 


阶段 ， 相 似 度 矩 阵 S 被 分 解 为 一 


以 ， 若 $y=-1 则 表示 Xi 和 x; 不 机 
哈 希 函数 fixe H ef- 来 对 紧凑 的 位 哈 希 码 


些 点 与 相似 性 标签 5 


相关 联 ， 其 中 


日 似 。 目 标 是 学 


于 生成 紧凑 的 哈 希 码 ; c) 利 月 


行 编 码 ， 从 而 保 


给 定 对 之 间 的 相似 


tH 了 一 种 新 的 多 尺度 平衡 深度 
该 方法 通过 多 个 尺度 接受 输入 图 像 ， 并 利 


图 像 检索 方法 。 


多 尺度 平衡 深度 哈 希 方法 
Lazebnik 等 人 提出 了 使 用 基于 特征 包 (bag offeature, BoF ) 


塔 的 图 像 。 来 


的 方法 对 空间 信息 进行 编码 的 空间 金字 塔 


] 卷 积 神经 网 络 哈 希 
a) 将 图 片 多 尺度 化 作为 输入 ; b 全 连接 
ESETE hey AS tht 
L2 范 数 构成 的 量化 损失 


匹配 (spatial pyramid 


matching, SPM) 方法 03。 它 们 代表 使 用 几 个 级 别 或 尺度 的 金字 
自 不 同 尺度 的 特征 被 组 合 以 形成 图 像 表 示 ， 使 特 
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录用 稿 项 图 像 检 索 方法 
征 越 粗糙 获得 的 权重 越 小 ， 而 特征 越 精细 获得 的 权重 越 大 。 此 ” 所 需 的 详细 和 本 地 信息 。 受 到 文献 [13-15] 的 启发 ， 本 文 更 加 深 
文 认 为 在 较 粗 燃 的 层面 上 发 现 的 匹配 可 能 涉及 越 来 越 多 的 不 同 。 入 地 研究 了 应 用 此 强大 方法 来 获得 辨别 图 像 特征 的 可 行 性 。 图 
的 图 像 特征 。 在 本 文中 同样 使 用 卷 积 特征 图 作为 局 部 描述 符 ， 像 由 工 级 金字 塔 表 示 ， 并 且 在 每 个 级 别 ， 图 像 被 均匀 地 划分 成 
以 同样 思路 探索 多 尺度 情况 。 实 验 后 发 现 卷 积 特征 图 的 深层 特 。 几 个 重 炙 或 非 重 侄 区域。 计算 这 些小 区 域 的 向 量 表示 ， 然 后 组 
征 与 传统 的 描述 符 不 同 : 不 同 级 别 的 特征 的 加 权 和 不 比 其 简单 。 合 区 域 向 量 以 形成 图 像 特征 向 量 。 图 像 的 单一 尺度 表示 仅仅 是 
的 总 结 表现 出 优越 的 性 能 。Kaiming 等 人 设计 了 一 种 称 为 空间 ”等 级 数 L=1 的 多 尺度 方法 的 特殊 情况 。 
金字 塔 池 化 (spatial pyramid pooling, SPP) [的 方法 。 在 SPP 将 小 区 域 重 新 投入 网 络 计算 区 域 向 量 的 时 间 成 本 将 是 巨大 
中 ,最 后 一 个 卷 积 层 的 特征 图 被 划分 成 3 或 4 个 尺度 的 金字 塔 。 的 ， 对 于 快速 图 像 检 索 来 说 ， 这 是 不 可 接受 的 。 受 Girshick 和 
首先 ， 每 个 尺度 的 区 域 特征 被 级 联 ， 然 后 将 比例 级 别 特征 级 联 ”Tolias 等 人 的 工作 的 启发 0%*m1, 在 某 一 层 的 特征 图 中 , 原始 图 像 
到 固定 长 度 向 量 以 被 转发 到 下 一 个 全 连接 层 。 在 文献 [15] 中 证 。 区 域 和 区 域 之 间 的 线性 投影 。 然 后 可 以 有 效 地 计算 区 域 特征 向 
明 ， 这 种 策略 对 于 无 监督 检索 并 不 会 取得 什么 好 的 效果 ， 导 致 量 ， 而 无 须 重 新 反馈 相应 的 图 像 区 域 。 
与 其 他 简单 组 合 方法 相 比 的 性 能 较 差 。 本 文 提出 的 多 尺度 平衡 深度 哈 希 方法 的 流程 图 如 图 1 所 示 。 
当 用 于 图 像 检索 时 ， 这 种 特征 仍然 缺乏 准确 匹配 两 个 图 像 
训练 图 片 
PF =W 
% % 全 蛤 it 
o 层 希 
码 
图 1 多 尺度 平衡 深度 哈 希 流程 图 
该 网 络 在 接受 多 尺度 输入 后 ， 首 先进 入 子 卷 积 神经 网 络 部 tanh 函数 ，W eR”* . c, eR“ 分 别 为 最 高 层 的 权重 及 偏 置 。 
分 ， 该 部 分 由 卷 积 层 、 池 化 层 及 全 连接 层 组 成 。 在 本 文中 ， 采 本 文 提 出 来 的 方法 将 卷 积 特征 映射 到 [-10 ， 哈 希 码 
用 三 个 卷 积 层 ， 第 一 个 卷 积 层 32 个 卷 积 核 ， 大 小 为 3X3; 第 ， 开 s[LI 是 连续 的 实 值 。 为 了 获得 二 进 制 哈 希 码 br ， 阔 值 函 


二 及 第 三 层 各 64 个 卷 积 核 ， 大 小 均 为 3X3。 卷 积 层 中 间 为 两 


个 池 化 层 ， 两 个 最 大 池 化 的 大 小 均 为 2X2。 而 后 连接 两 个 全 连 


接 层 ， 其 中 第 二 个 全 
模块 ， 该 模块 由 三 部 
失 部 分 以 及 平衡 项 部 


假设 X =[x%, N,N, 


Hx, eR'd<n<N) 是 第 n 个 样本 。 哈 希 的 最 终 目 的 是 将 其 


连接 层 作为 哈 希 层 。 最 后 ， 进 入 损失 函数 
分 组 成 ， 包 括 softmax 损失 部 分 、 量 化 损 
分 组 成 。 
…xw]eRR”” 为 一 个 具有 NN 个 样本 的 训练 集 ， 
瑞 


by 


= sgn(H, ) 


(4) 


其 中 :by e{-1,1 为 一 组 位 二 进 制 哈 希 码 ，sgn() 为 符号 函数 ， 
bn x>0, Wi senQ=1, AM sgnQ=-1 . 
2.2 损失 函数 


由 于 将 


射 并 量化 为 二 进 制 编 
神经 网 络 进行 非 线 性 


码 。 本 文 将 训练 样本 x, 作为 输入 放 入 多 
变换 ， 最 终 得 到 输出 为 二 进 制 编码 bs 。 假 


设 文中 的 网 络 是 一 个 
第 ie(,3.…m) 尺度 下 


AR: 


其 中 : hy 在 第 i 
第 / 


L+ 层 网 络 ， 分 为 m 个 尺度 输入 ， 其 中 在 
在 第 1e(,2,.…,D 层 的 输出 可 以 表述 为 如 下 


hy=W, ho, +G (2) 
尺度 下 在 第 1 层 的 输出 ，W, eR 为 第 i 尺度 下 在 
RERE, e 为 该 层 的 偏 置 。 
各 尺度 在 最 高 层 的 融合 输出 可 通过 如 下 公式 求 得 


H, 


= 42 hv #2, (W :hi +¢,) (3) 


其 中 : H, 为 最 高 层 的 融合 输出 ， 形 式 为 一 组 K 位 蛤 希 码 ，$ 为 


现 有 的 哈 希 
学 习 工 作 所 


方法 广泛 采用 [81。 


广泛 忽视 的 两 个 重要 问题 ， 将 连续 松弛 


隐 层 状态 值 转换 成 二 进 制 码 的 离散 优化 是 非常 具有 
挑战 性 的 ， 为 了 便于 优化 ， 连 续 松 弛 被 应 ) 


于 二 进 制约 束 ， 被 
连续 松弛 将 产生 哈 希 函 数 
RE E 


然而 ， 


约束 会 带 来 


不 可 控 的 量化 误差 采 | 


二 进 制 代码 之 间 的 汉 明 距离 的 替代 所 产生 的 近似 误差 。 为 了 


制 量 


化 误差 


决 量化 误差 
假设 一 


入 ， 则 预测 


的 问题 。 


缩小 汉 明 距离 与 其 蔡 代 之 间 的 距离 ， 学 习 高 质量 
哈 希 码 ， 本文 设 计 了 一 种 新 的 损失 函数 ，! 
数 以 及 平衡 项 构成 。 它 不 仅 可 以 保留 语义 


j 连 续 松 弛 之 间 的 内 积 作为 


控 


交叉 焙 控 制 和 Z2 范 
言 息 ， 还 能 很 好 地 解 


张 图 片 zo 的 二 进 制 码 by ”被 ) 


标签 ”的 概率 为 


py” =m|b”) = 


IVE softmax 层 的 输 


= 


exp(z,,) 
M 


2 exp(z)) 


,m=1,2,...,M 


(5) 
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其 中 : z,=wib”+c,, W, ¢R™ A softmax 层 的 第 m 个 权重 参数 ， 
c 为 softmax 层 的 第 mm 个 偏 置 参数 ，m 为 训练 图 像 的 种 类 数 ， 
bw e{-L1}* 。 

通过 考虑 标签 Y 的 负 对 数 似 然 ， 则 可 以 获得 以 下 优化 问题 


N 
min 3, = 一 log p(¥ |B) = p2 log p(y” |B) 


(B) 
= 这 270 y” =m}log —"— EPEn) y (6) 
ce Lew ) 


其 中 : 7{.} 为 示 性 函数 ,如 果 y =m , WA 1; 否则 为 0。B = lo}, 
为 所 有 图 片 的 二 进 制 码 。 上 述 优化 问题 利用 标签 信息 去 保存 哈 
希 码 语义 相似 度 。 
OY AKA ce 的 二 进 制 码 ，b 为 另 一 张 图 片 To 
的 三 进 制 码 ，b EAA ce 的 二 进 制 码 。 其 中 图 片 co» 与 图 片 
Zeo 是 相似 的 ， 图 片 ze" SEU re 是 不 相似 的 。 
为 二 进 制 码 O° Alo 之 间 的 汉 明 距离 。 优 化 式 (8) 问题 可 以 使 
两 张 相 似 的 图 片 ze 与 To ADA BBS dist, Ob) 尽 可 能 小 ， 
同时 使 两 张 不 相似 的 图 片 7% 与 To 的 汉 明 距离 distr(o ,27) 
FRAT REA. 
于 二 元 约束 优化 问题 难以 解决 。 在 本 文中 ， 为 了 解决 离 
散 优化 问题 ， 提 出 了 一 种 新 的 策略 ， 利 用 连续 松弛 以 取代 二 进 
制约 束 。 本 文采 用 连续 哈 希 码 代替 离散 二 进 制 码 。 式 (8) 的 优化 
问题 在 可 以 重新 定义 如 下 : 


dist, (bb) 


oe 7h -> a = m}log =—*—_ expen) 


Èg ) 
st. HL =by”,  n=1,2,3..,N 0) 
H,” eR™, n=1,2,3...,N 
H” e[-1,1], k=1,2,3...,K 


RKP:n KZAM RRR 2 = Wi +e, 5 FIH, = (HO, 
H,” ={H®, HP ,.., 

然而 ， 连 续 松 弛 导致 不 可 控 的 量化 误差 中。 本 文中 ， 正 则 
化 项 被 引入 去 控制 的 量化 误差 。 使 用 连续 哈 希 码 和 离散 的 二 
进 制 码 之 间 的 22 范 数 作为 正则 化 项 £。 然而, 仅仅 优化 正则 化 
项 LA 就 可 能 导致 二 进 制 码 全 由 1 组成。 这 是 因为 优化 12 范 数 项 
会 影响 哈 希 码 的 平衡 性 。 为 了 维持 哈 希 码 的 平衡 性 ， 利 用 哈 希 
码 平 均值 的 平方 作为 平衡 准则 。 这 个 平衡 的 标准 鼓励 哈 希 码 每 
一 位 被 映射 成 - 1 或 1 尽 可 能 均匀 P0。 为 了 产生 好 的 二 进 制 代 
码 ， 优 化 问题 为 


ae 


MWS 


min m =q +yL+4Q 


(by HL} 
-$ dN" 9 = m}log <P Cn) 
Lev) 
y iz (8) 
+S? [=] by” |l, 
m 


+ AD (pC!) 
其 中 :7 为 控制 正则 化 强度 的 权重 参数 ，4 为 控制 平衡 标准 的 相 


对 重要 性 的 参数 ，p() APES, M Jy 12 范 数 , |. 为 绝对 值 。 
正则 化 项 £ 控 制 将 连续 松弛 代替 二 进 制约 束 产生 的 不 可 控制 的 
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量化 误差 。 平 衡 的 标准 Q 保证 哈 希 码 的 每 一 位 比特 具有 相同 的 
概率 为 1 或 -1， 这 样 使 得 在 二 进 制 哈 希 码 中 0 和 1 出 现 的 几率 
尽 可 能 相等 。 

3 ”实验 设计 及 结果 分 析 


3.1 实验 算法 流程 
算法 1 多 尺度 平衡 深度 哈 希 算法 


输入 : 训练 样本 FIZ”) 六 和 它们 对 应 的 标签 向 量 Y=(>“" 六 。 
输出 : 所 有 权重 参数 W ;所 有 偏 置 参数 4b 。 
初始 化 : 权重 采用 高 斯 分 布 初始 化 
循环 : 

1: 通过 前 向 传播 计算 户 ; 

2: 根据 式 (2)G) 计 算 哈 希 码 ALO) ; 

3: 根据 式 (4) 计 算 预 测 输出 2 ; 

4: ME TK(8) AAW.) zê RIFE m ; 

Ph RUAN REE Nes SGD) ales 


直到 : 达到 固定 迭代 次 数 

返回 : W.b 
3.2 ”实验 数据 集 

根据 本 文 所 提出 的 方法 ， 利 用 两 个 基准 数据 
Flickr 对 本 方法 进行 评估 。 

a)CIFAR-10 图 像 数 据 库 。 这 个 数据 集 是 8000 万 张 Tiny 图 
像 数据 集 的 子 集 ， 其 中 分 为 10 类 (每 类 6 000 张 图 像 ) 的 对 象 
的 彩色 图 像 。 每 个 图 像 的 大 小 是 32X32。 这 些 类 包含 飞机 、 汽 
车 、 鸟 、 猫 、 鹿 、 狗 、 青 蛙 、 马 、 船 和 卡车 。 对 于 CIFAR-10 数 
据 集 ， 从 每 个 类 别 中 随机 选择 1000 张 图 像 以 形成 测试 查询 集 ， 

且 剩 余 的 50 000 张 图 像 用 作 训 练 集 。 根 本 文 使 用 512 AE GIST 

特征 作为 传统 特征 表示 和 4 096 维 CNN 特征 作为 深度 语义 特 
征 表 示 。 

b)Flickr 图 像 数 据 库 。 
其 中 每 个 图 像 都 标 有 一 个 语义 概念 
中 ， 将 该 子 集 的 图 像 调整 为 32 X32。 
33 ”实验 环境 配置 

本 文 实验 环境 为 : GeForce GTX Titan X GPU、 中 央 处 理 器 
Ay Intel® Core i7-5930K 3.50 GHz、 内 存 为 64 GB、 操 作 系 统 为 
Ubuntu 14.04。 所 提出 的 模型 使 用 开源 库 KERAS 来 实现 。 模 型 
总 体 目标 函数 通过 随机 梯度 下 降 (SGD) 优化 。SGD 的 学 习 率 
为 10-6， 每 次 更 新 后 的 学 习 率 衰减 值 为 10-7，Nesterov 动量 为 
0.9. 每 批 次 的 大 小 为 32。 将 本 文 网 络 的 输入 层 和 隐藏 层 之 间 的 
初始 权重 设置 为 正 态 分 布 。 其 初始 循环 权重 和 矩阵 设置 为 单位 矩 
阵 ， 剩 余 权 重 采用 高 斯 分 布 。 在 本 实验 中 ， 参 数 Y 和 4 分 别 设 
定 为 0.001 和 0.001。 本 文 后 面 将 会 进行 针对 这 些 参数 配置 的 实 
验 ， 说 明 参 数 选 择 的 原因 及 其 合理 性 。 
3.4 实验 评价 指标 

为 了 评估 哈 希 方法 的 有 效 性 ， 考 虑 了 普遍 
较 的 几 个 指标 后 ， 最 终 采 用 如 下 三 个 度量 : 


I 


E CIFAR-10, 


at 


Flickr 收集 的 25000 张 图 像 组 成 ， 
， 共 38 种 语义 概念 。 在 本 文 


用 于 定量 性 能 比 
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a) 平均 检索 精度 (MAP, Mean Average Precision), 它 是 每 个 
查询 样本 平均 准确 率 的 平均 值 。 


结 


ChinaX ive 
KER, +: MBDH: 一 种 多 尺度 平衡 深度 哈 希 


检索 精度 :b) 与 


他 深度 哈 希 方法 CNNH CNNH*、DN 


作 期 刊 


图 


Be 
ah 
x 
ie 


INH.DHN 


相 比 ,提出 的 MBDH 将 检索 平均 MAP M 42.9% (CNNH).48.4% 


b) 以 哈 希 码 长 度 48bits 作为 参考 时 , 精度 @ 前 n 个 返回 结 = (CNNH*), 55.2% (DNNH), 55.5%(DHN) 28 67.6%。 这 是 因为 所 
果 (Precision curve w.r.t. top-n @ 48 bits)。 根 据 查 询 样 本 和 数据 提出 的 方法 运用 了 多 尺度 的 图 片 输入 ， 并 且 设 计 了 新 的 损失 函 
集 之 间 的 汉 明 距离 对 数据 库 中 的 图 像 进行 排名 ， 并 计算 排名 列 数 ， 其 保持 了 哈 希 码 的 语义 相似 性 和 平衡 性 ， 并 且 同 时 考虑 了 
表 的 前 n 个 精度 。 连续 编码 转换 为 离散 二 进 制 码 产 生 的 量化 误差 ， 从 而 可 以 提高 
c) 汉 明 半径 2 内 的 精度 , 计算 查询 样本 和 数据 集 之 间 的 汉 ”检索 精度 。 
明 距 离 小 于 2 的 精度 。 表 1 CIFAR-10 数据 库 上 MAP 的 图 像 检索 结果 
在 实验 中 ， 本 文 应 用 类 标签 作为 正确 的 标准 。 通 过 检查 查 CIFAR-10 (MAP) 
询 图 像 和 返回 的 图 像 是 否 具有 相同 的 标签 来 计算 所 有 指标 。 如 eS oe, “aa Saas tea 
果 这 些 指标 的 值 更 高 ， 性 能 更 好 。 MBDH 0.654 0.663 0.671 0.676 
3.5 实验 结果 及 分 析 DNH 0.555 0.594 0.603 0.621 
1) CIFAR-10 数据 库 上 的 结果 DNNH 0.552 0.566 0.558 0.581 
本 文 利用 上 述 三 个 指标 评估 了 提出 的 多 尺度 卷 积 神经 网 络 人 
哈 希 方法 的 检索 质量 ， 并 与 经 典 方法 以 及 一 些 当今 前 沿 方法 进 人 
行 了 比较 ， 其 中 包括 三 个 无 监督 方法 : LSH, SHIA ITQ KSH 0.303 0.337 0.346 0.356 
法 ; 以 及 八 个 监督 方法 :DHNP2 CNNHIUI 及 其 变 体 CNNHxII、 ITO-CCA 0.264 0.282 0.288 0.295 
DNNHU2、KSHIEI、MLHB]、BREP3 和 ITQ-CCAP4 方 法 。LSH、 Mdi ois. oos O20 O21 
SH, ITQ, KSH, MLH, BRE 和 ITQ-CCA 是 传统 的 哈 希 方法 ， ce ieee aes. To 
它们 使 用 512 维 向 量 作为 输入 来 学 习 哈 希 函数 。 其 他 四 种 哈 希 si Gia) de OB- Sage 
方法 ( 即 DNH、DNNH、CNNH* 和 CNNH) 使 用 4096 维 CNN ITO die -0 Dor N 
特征 作为 输入 来 执行 哈 希 函数 。 LSH 0.121 0.126 0.120 0.120 
可 以 清楚 地 发 现 :a) 比 较 利 用 手工 特征 和 利用 4096 维 CNN 
特征 的 相同 的 方法 ， 可 以 看 出 CNN 特征 可 以 提高 传统 方法 的 
k OO = — | 全 
$ m = = TT 
i g Mr a oe Ae 
k, 


Number of bits 


图 2 左边 显示 了 在 CIFAR-10 数据 集 上 的 不 同比 特 情况 下 
汉 明 距离 小 于 等 于 2 的 精度 曲线 ， 可 以 看 出 ， 所 提出 的 MBDH 
在 所 有 比特 的 汉 明 距离 小 于 等 于 2 实现 了 最 佳 的 检索 精度 。 图 
2 中间 展示 了 所 提出 的 MBDH 与 其 他 方法 在 所 有 比特 情况 下 前 
的 MAP。 图 2 右边 显示 了 在 CIFAR-10 数据 集 上 48 bit 情况 下 
前 1000 张 返 回 图 片 的 精度 曲线 ， 所 提出 的 MBDH 仍然 实现 了 
最 佳 的 检索 精度 。 

MBDH 在 本 数据 集 上 查询 10 个 类 返回 的 前 10 个 结果 如 图 
3 所 示 。 其 中 ， 左 侧 为 查询 图 片 ， 右 侧 有 红色 方 框 标记 的 为 错 
误 结果 。 

2) Flickr 数据 库 上 的 结果 
在 该 实验 中 采用 的 实验 设置 与 上 文 相 同 。 表 2 表示 在 Flickr 
数据 集 上 不 同 长 度 的 哈 希 码 的 检索 MAP 结果 。 


图 2 CIFAR-10 数据 集 的 结果 图 
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图 3 MBDH 在 CIFAR-10 数据 集 查 询 返 回 前 10 个 结果 
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表 2 Flickr 数据 库 上 MAP 的 图 像 检 索 结 果 
Flickr (MAP) 
FV 

12bits 24 bits 32 bits 48 bits 

MBDH 0.853 0.859 0.863 0.872 

DHN 0.810 0.828 0.829 0.841 

DNNH 0.783 0.789 0.791 0.802 
CNNH* 0.749 0.761 0.768 0.776 

CNNH 0.732 0.734 0.741 0.740 

KSH 0.690 0.702 0.702 0.706 
ITQ-CCA 0.513 0.531 0.540 0.555 

MLH 0.610 0.618 0.629 0.634 

BRE 0.571 0.592 0.599 0.604 

SH 0.531 0.533 0.531 0.529 

ITQ 0.544 0.555 0.560 0.570 

LSH 0.499 0.513 0.521 0.548 

可 以 清楚 地 看 到 : 
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MBDH 来 学 习 二 进 制 哈 希 码 ， 用 于 快速 
赖 于 数据 的 对 称 相似 性 ， 提 出 的 深度 哈 希 网 络 架 


表 4 多 尺度 输入 有 效 性 实验 结果 


; 评价 度量 
方法 
MAP Precision @500 Hamm dist<=2 
单 尺 度 0.632 0.6092 0.6174 
双 尺 度 ”0.661 0.6423 0.6521 
多 尺度 0.676 0.6538 0.6624 
结束 语 


本 文 提出 一 个 简单 而 有 效 的 多 尺度 平衡 深度 哈 希 模型 
像 检索 。 该 方法 不 依 
构 将 单一 尺度 


Ds 


APRA RETA ARRE T E CEA PE ERR 


以 及 生成 紧凑 哈 希 码 时 产生 的 量 
平衡 性 。 本文 进行 了 广泛 的 
居 库 上 的 实验 结果 以 及 与 多 种 当今 先进 喻 希 方法 的 比较 评估 。 


BY 


ETA, HAER SMA Ar iS 
提供 了 MBDH 在 两 个 基 ; 


实验 ， 


a) 利用 4 096 维 CNN 特征 的 传统 哈 希 方法 比 使 用 手工 特 
征 的 相同 方法 具有 更 好 的 性 能 ， 可 以 发 现 CNN 特征 可 
传统 方法 的 检索 精度 。 

b) 所 提出 的 MBDH 实现 了 优 于 其 他 比较 的 现 有 哈 希 技术 
方法 的 性 能 。 并 且 所 提出 的 MBDH 将 平均 MAP 从 DHN 的 
84.1% 改进 到 87.2% 。 

c) 所 提出 的 MBDH 可 以 实现 优 于 其 他 8 种 监督 哈 希 方法 
( 即 DNH_DNNH、CNNH、CNNH*、KSH、MLH、BRE 和 ITQ- 
CCA 方法 ) 的 性 能 ， 因 为 其 使 用 多 尺度 输入 ， 并 使 用 了 新 的 损 
3.6 ”关于 参数 配置 影响 的 实验 分 析 

将 两 个 参数 7 和 4 设置 为 从 105 到 1 的 不 同 值 ， 为 了 方便 
记录 ,此 处 > 和 4 取 相同 的 值 。 并 计算 长 度 为 48 位 的 哈 希 码 在 
CIFAR-10 数据 集 上 的 MAP。 结 果 如 表 3 所 示 。 


表 3 参数 配置 影响 实验 结果 
: 不 同 参 数 Y 和 4 取 值 下 的 实验 结果 (48bits) 
评价 度量 - 
105 104 103 102 10! 1 
MAP 0.632 0.658 0.676 0.665 0.643 0.60 


AR 3 TY A BE St WLS Bl) BEY A A 取 10° 时 , MAP 达到 
最 高 值 为 0.676。 解 释 了 本 文 参 数 选 择 的 原因 及 合理 性 。 
3.7 ”多 尺度 有 效 性 的 实验 分 析 


为 了 进一步 验证 本 文 所 提出 的 多 尺度 平衡 深度 哈 希 方法 的 
有 效 性 ， 本 文 还 对 相同 网 络 结构 的 单 尺度 以 及 双 尺 度 方法 进行 


了 实验 ， 计 算 三 种 方法 在 哈 希 码 长 度 为 48 位 的 情况 下 三 个 评 
价 指标 的 值 。 结 果 如 表 4 所 示 。 

从 表 4 中 可 以 明显 看 出 ， 本 文 提出 的 方法 的 三 个 度量 指标 
值 都 明显 高 于 单 尺度 及 双 尺 度 方法 。 尤 其 较 单 尺 度 方法 ,MAP 
提高 了 4.4%。 通 过 上 可 以 进一步 证 明 本 文 提出 的 


述 实 验 ， 


实验 结果 表明 ， 通 过 采用 多 


后 ， 


尺度 输入 ， 并 对 损失 函数 进行 优化 
MBDH 分 别 对 CIFAR-10 以 及 Flickr 数据 集 的 最 佳 检索 结 


果 较 当 
展示 了 所 提出 的 方法 
可 扩展 性 


MA AL HE > 
今 先 进 


方法 分 别提 高 了 5.5% 和 3.1% 检 索 精 度 。 进 一 步 
对 数据 量 在 100 万 以 上 的 大 规模 数据 集 的 


和 有 效 性 。 
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